Open
Description
It is common-known that o200k_base contains '微信公众号天天中彩票' due to text quality, which is also discussed in #297
I try to collect all Chinese words using rock-n-roll, then segment these words. The table can be found on openai/o200k_base.chinese_words.txt.
微信公众号天天中彩票 微信 公众 号 天天 中 彩票
日本毛片免费视频观看 日本 毛片 免费视频 观看
大发展有限公司官网 大 发展 有限公司 官网
久久免费热在线精品 久久 免费 热 在线 精品
微信上的天天中彩票 微信 上 的 天天 中 彩票
给主人留下些什么吧 给 主人 留下 些 什么 吧
微信里的天天中彩票 微信里 的 天天 中 彩票
天天中彩票大神推荐 天天 中 彩票 大神 推荐
彩神争霸大发快三 彩神 争霸 大发 快 三
天天中彩票中大奖 天天 中 彩票 中大奖
免费视频在线观看 免费视频 在线 观看
天天中彩票双色球 天天 中 彩票 双色球
原始词表中文词数量: 7478
分词去重后中文数量: 5136,只剩下 2/3。
Activity
zhaoyukoon commentedon Jan 14, 2025
我尝试考虑分词后次数并降序输出如下(结果文件):
···
彩票 178
天天 152
中 102
的 92
大发 57
彩 46
争霸 39
娱乐 39
快 38
在线 37
彩神 36
吗 36
免费 34
三 34
久久 33
平台 33
是 31
官网 30
视频 28
北京 27
观看 25
时时 25
赛车 25
精品 24
在 24
···
其中grep一共包含了39个词。从这个角度来看,词表有大量冗余。
zhaoyukoon commentedon Jan 14, 2025
让我来分析一下这些高频词汇。
通过观察这些词汇的特点和组合,我可以发现几个主要特征:
这类词汇与博彩、彩票活动高度相关
这些词汇通常与在线视频或流媒体内容相关
基于这些特征,这段文本很可能来源于:
这些内容组合方式和选词特点都显示这可能是一些不规范或者违规网站的内容。建议对此类信息保持警惕。
zhaoyukoon commentedon Jan 14, 2025
微信公众号天天中彩票 日本毛片免费视频观看 大发展有限公司官网 久久免费热在线精品 微信上的天天中彩票 给主人留下些什么吧 微信里的天天中彩票 天天中彩票大神推荐 彩神争霸大发快三 天天中彩票中大奖 免费视频在线观看 天天中彩票双色球 天天中彩票不中返 中国福利彩票天天 天天中彩票为什么 无码不卡高清免费 无码一区二区三区 毛片免费视频观看 最新高清无码专区 公众号天天中彩票
一段中文数据包含上述高频词汇,请判断中文可能的类型和来源
我扔给claude的分析结果 https://claude.ai/chat/cedf2dee-503a-43dd-bf18-4848f36784b4
zhaoyukoon commentedon Jan 14, 2025
zhaoyukoon commentedon Jan 14, 2025
zhaoyukoon commentedon Jan 14, 2025
我试图用deepseek对非中文的词汇做分析:
一个用来训练大模型的语料库包括海量的文本数据,其中经过BPE算法分析发现词表中包含如下长词:
abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
verantwoordelijkheid
telecommunications
onreadystatechange
significativamente
Telecommunications
Wahrscheinlichkeit
disproportionately
unterschiedlichen
interdisciplinary
githubusercontent
responsabilidades
selbstverstndlich
Herausforderungen
multidisciplinary
STDMETHODCALLTYPE
commercialization
responsibilities
cryptocurrencies
responsabilidade
verantwoordelijk
htmlspecialchars
characterization
entrepreneurship
unterschiedliche
Responsibilities
gastrointestinal
Dienstleistungen
correspondientes
readystatechange
professionnelles
misunderstanding
persoonsgegevens
maatschappelijke
unconstitutional
Entrepreneurship
establecimientos
ABCDEFGHIJKLMNOP
Responsibilities
请逐个分析上述词汇,判断文本数据可能包括哪些专业领域,文本数据可能是什么来源?请以中文生成详细的分析结果并以返回markdown源文本。
语料库专业领域及来源分析
通过对上述词汇的分析,可以推断出该语料库可能涵盖以下专业领域,并可能来自多种类型的文本数据来源。
1. 信息技术与计算机科学
telecommunications,Telecommunications,onreadystatechange,githubusercontent,htmlspecialchars,readystatechange,STDMETHODCALLTYPEonreadystatechange和readystatechange与JavaScript中的XMLHttpRequest对象相关,表明语料库中可能包含前端开发或网络通信相关的文本。githubusercontent表明语料库可能包含来自GitHub的代码或文档。2. 法律与政治
unconstitutional,responsibilities,Responsibilities3. 医学与生物学
gastrointestinal,multidisciplinary,interdisciplinary4. 商业与经济
commercialization,entrepreneurship,Entrepreneurship5. 语言学与多语言文本
verantwoordelijkheid,significativamente,Wahrscheinlichkeit,responsabilidades,selbstverstndlich,Herausforderungen,responsabilidade,Dienstleistungen,correspondientes,professionnelles,persoonsgegevens,maatschappelijke,establecimientos6. 社会科学与心理学
misunderstanding,characterization7. 工程与技术
disproportionately,unterschiedlichen,unterschiedliche8. 加密与区块链技术
cryptocurrencies文本数据可能来源
综上所述,该语料库可能是一个跨学科、多语言的综合性文本数据集,涵盖了信息技术、法律、医学、商业、社会科学、工程、加密技术等多个专业领域,并可能来源于学术论文、技术文档、商业文献、法律文书、新闻报道等多种类型的文本数据。
gpt-4o的非中文数据的确很多样,可能是模型表现好的一个重要原因。